草庐IT

【ML】第 2 章:PySpark 简介

全部标签

python - Pyspark sparkSql 问题

我正在使用clouderavm10.0,spark版本为1.6。登录pyspark控制台后,我正在尝试以下语句从配置单元中获取数据sqlContext.sql("select*from/user/hive/warehouse/default.party").show()我收到下面给出的错误。Traceback(mostrecentcalllast):File"",line1,inFile"/usr/lib/spark/python/pyspark/sql/context.py",line580,insqlreturnDataFrame(self._ssql_ctx.sql(sqlQue

sql - pyspark获取月份的周数

我对从pyspark中的datafrme列中的月份获取周数感到困惑,例如,将我的数据框视为WeekID,DateField,WeekNUM1,01/JAN/20172,15/Feb/2017我的输出应该如下所示WeekIDm,DateField,MOF1,01/JAN/2017,12,15/FEB/2017,2我尝试使用striftime和其他我无法执行的日期函数。请帮我解决这个问题。 最佳答案 您可以组合使用to_date和date_format:frompyspark.sql.functionsimportto_date,dat

hadoop - Wordcount Nonetype 错误 pyspark-

我正在尝试进行一些文本分析:defcleaning_text(sentence):sentence=sentence.lower()sentence=re.sub('\'','',sentence.strip())sentence=re.sub('^\d+\/\d+|\s\d+\/\d+|\d+\-\d+\-\d+|\d+\-\w+\-\d+\s\d+\:\d+|\d+\-\w+\-\d+|\d+\/\d+\/\d+\s\d+\:\d+','',sentence.strip())#datesremovedsentence=re.sub(r'(.)(\/)(.)',r'\1\3',sen

hadoop - Apache Spark - Python - 如何在 Pyspark 中使用范围函数

我有几行空格分隔的输入数据:NameCompanyStart_DateEnd_DateNareshHDFC2017-01-012017-03-31AnoopICICI2017-05-012017-07-30我需要输出为:NareshHDFC201701NareshHDFC201702NareshHDFC201703AnoopICICI201705AnoopICICI201706AnoopICICI201707我已经为这些数据制作了一个文本文件,并将其放在我的Hadoop集群上,我已经编写了代码,但在获取输出时遇到了一些问题。请帮忙。我不知道如何从条目中提取月份并将它们放入范围函数中,所

python - PySpark 动态列计算

下面是我的spark数据框abc134200410220我的输出应该如下所示abc13420241-1223公式是prev(c)-b+a即4-2+0=2和2-4+1=-1 最佳答案 frompyspark.sql.functionsimportlag,udffrompyspark.sql.typesimportIntegerTypefrompyspark.sql.windowimportWindownumbers=[[1,2,3],[2,3,4],[3,4,5],[5,6,7]]df=sc.parallelize(numbers).

python - Pyspark 在查找前一行时按组迭代数据帧

请帮助我,我是spark的新手。下面是我的数据框typecol1col2col3104101270011001183022null002null100301260320134003500下面应该是我的输出typecol1col2col3result1041001270014110013118302-1682null002null1003012600320112534001213500116挑战在于必须对每一组类型的列进行计算,公式类似于prev(col2)-col1+col3我尝试在col2上使用window和lag函数来填充结果列,但它没有用。下面是我的代码part=Window()

Spark在Windows下的环境搭建及pyspark的使用

  一、JDK的安装    Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTMPlatformStandardEditionDevelopmentKit),并将环境变量配置好。可参考我的另一篇博客:http://t.csdnimg.cn/6Kj8w二、Spark的安装1.下载Spark        从Spark官网进行下载:ApacheSpark™-UnifiedEngineforlarge-scaledataanalytics,点击Downloa

HarmonyOS4.0从零开始的开发教程21HarmonyOS云开发简介

HarmonyOS(十九)HarmonyOS云开发简介概述HarmonyOS云开发是DevEcoStudio新推出的功能,可以让您在一个项目工程中,使用一种语言完成端侧和云侧功能的开发。基于AppGalleryConnectServerless构建的云侧能力,让您无需构建和管理云端资源,随需使用,大大提高构建应用/元服务的效率。认证服务:可以为应用快速构建安全可靠的用户认证系统。云函数:一方面将开发测试的对象聚焦到函数级别,可以大幅简化应用开发与运维相关的事务;另一方面通过云函数SDK,可以便捷操作云数据库、云存储等,提升业务功能构建的便利性。云数据库:在保证数据的可用性、可靠性、一致性,以及

python - 多列上的 pyspark 条件并返回新列

我使用的是spark2.1,脚本是pyspark。请帮我解决这个问题,因为我被困在这里了。问题陈述:根据多个列的条件创建新列输入dataframe如下FLG1FLG2FLG3TFTFTTTTF现在我需要创建一个新列作为FLG,我的条件就像FLG1==T&&(FLG2==F||FLG2==T)我的FLG必须是T否则F将dataframe视为DF下面是我试过的代码片段DF.withColumn("FLG",DF.select(when(FLG1=='T'and(FLG2=='F'orFLG2=='T','F').otherwise('T'))).show()没有工作我在未定义时获取名称请帮

hadoop - 在 HDP (2.2) 平台上使用 Yarn-Client 上的 PySpark 将 Hbase 表读取到 Spark(1.2.0.2.2.0.0-82) RDD 时出现异常 "unread block data"

在HDP(2.2)上使用Yarn-Client(2.6.0)上的PySpark将Hbase(0.98.4.2.2.0.0)表读取到Spark(1.2.0.2.2.0.0-82)RDD时出现奇怪的异常)植物形态:2015-04-1419:05:11,295WARN[task-result-getter-0]scheduler.TaskSetManager(Logging.scala:logWarning(71))-Losttask0.0instage0.0(TID0,hadoop-node05.mathartsys.com):java.lang.IllegalStateException